lofter爬虫 保存全部喜欢/推荐/tag

您所在的位置:网站首页 中国地理手抄报 模板 lofter爬虫 保存全部喜欢/推荐/tag

lofter爬虫 保存全部喜欢/推荐/tag

2024-06-04 11:18| 来源: 网络整理| 查看: 265

lofter爬虫 保存全部喜欢/推荐/tag

程序放github上了,链接最近好像不让放我放评论了。建议科学上网,不科学文档的图会出不来。程序运行的时候别科学,lof会拒绝外网请求。

里面还有爬个人主页的,具体看github的说明文档。

有想用但是不会编程的,我写了个小白如何运行程序也放项目里了。

程序简介:

运行模式

共四种运行模式,like1, like2, share, tag

like1和like2:保存所有点过的喜欢,两者的区别是2有一个额外的功能 share:保存所有点过的推荐 tag:保存tag里的内容,最新/总榜/月榜/日榜都行

tag模式我只能爬到前1200条内容,后面的我弄不到了,有大佬知道怎么搞的话求告知

保存的内容

文件保存位置默认在程序同一路径的/dir

lofter的博客有5种类型,这个爬虫可以爬到文字、图片、长文章。音乐和视频我没想弄。

其中文字我分类成了有标题的和无标题的,有标题的叫文章,无标题的叫文本。一共四种保存模式。

保存的图片的命名格式是 "作者名[作者三级域名] 发表时间(编号)"

三级域名就是每个人主页 https: //xxxxxxx.lofter.com/ 的 xxxxxx那一段,整这个是因为作者可能经常改名,但三级域名很少改,通过文件找作者的时候会方便很多。

保存的文章、文本、长文章的文件命名格式都是 "标题 by 作者.txt"

文件里有头信息和尾信息,头信息包括 标题,作者名,作者三级域名,发表时间,原文链接,该篇博客打的tag

如果文章里面带图片或者外链,链接会写在文件最后。有保存文章中图片的功能,后面介绍。

话说lofter最近使劲峰外链这个爬外链的功能都不一定用得上。

使用

基本的使用只要设置三个地方,url,mode,save_mode

url:like1 like2 share模式的url是你个人主页的链接tag模式需要的是tag链接。tag链接中有中文复制下来会变成编码,是正常的。

mode:就是模式,like1 like2 share 和 tag

save_mode:保存模式,要保存哪些内容,见图

使用like1和share前需要把自己的lofter推荐和喜欢设为公开,非公开的话会爬不到

然后运行就行。

like2模式有一些额外设置,具体看说明文档。

功能选项

这里简单说一下,具体看github说明文档

所有模式都有自动整理功能,图片和文章可以按作者打的第一个tag放到tag名的文件夹里,也可以自己设置tag的优先度

like2模式的额外功能,只爬从某个时间到现在为止点过的喜欢。 这个功能让like2的可用性高了很多,比如第一次保存了所有点过的喜欢,一个星期后把时间设置为上次运行的日期,可以只爬这一个星期里点过的

tag模式额外功能,最小热度指定,只爬热度超过指定热度的

其他:保存 文章/长文章/文本 中包含的图片,这个功能因为没有足够的文章让我测试所有出问题的可能性是有的,要是爬长文章的时候报错应该就是这个功能的问题

所有的设置都在main里,在程序的最后

具体的说明看github的文档,报错可以找我的

其实最开始只写了爬喜欢的,写的时候觉得500行能写完,结果写了800行,然后发现推荐和tag请求返回的数据跟喜欢的差不多,就又加了推荐和tag,现在1000行,虽然是加了注释1000行,但是这还是我写过最长的代码。



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3